Este relatório explora um conjunto de dados contendo 4898 vinhos brancos com 11 atributos de propriedades químicas do vinho. Três especialistas em vinhos avaliaram cada amostra, fornecendo uma nota entre 0 (muito ruim) e 10 (muito excelente). A mediana entre as notas para cada amostra foi considerada.
## 'data.frame': 4898 obs. of 14 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## $ quality.factor : Ord.factor w/ 7 levels "3"<"4"<"5"<"6"<..: 4 4 4 4 4 4 4 4 4 4 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
##
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
##
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
##
## alcohol quality quality.factor
## Min. : 8.00 Min. :3.000 3: 20
## 1st Qu.: 9.50 1st Qu.:5.000 4: 163
## Median :10.40 Median :6.000 5:1457
## Mean :10.51 Mean :5.878 6:2198
## 3rd Qu.:11.40 3rd Qu.:6.000 7: 880
## Max. :14.20 Max. :9.000 8: 175
## 9: 5
## # A tibble: 7 x 2
## quality.factor n
## <ord> <int>
## 1 3 20
## 2 4 163
## 3 5 1457
## 4 6 2198
## 5 7 880
## 6 8 175
## 7 9 5
Há 4898 observações com 14 variáveis (considerando variável criada quality.factor) e nenhum valor faltante. Todas as variáveis de input são do tipo numérico e a variável output (qualidade) é categórica. Por isso, criou-se a variável quality.factor para representar um fator com ordem crescente. Percebe-se que apenas 5 vinhos obtiveram nota 9 (0,18%), 175 nota 8 (3,57%) e 880 nota 7 (17,97%), sendo que a maioria recebeu nota 6, 2198 observações (44,87%), seguida da nota 5 com 1457 (29,75%) observações, e por fim, 183 (3,74%) obtiveram notas baixas, 163 notas 4 (3,33%), 20 notas 3 (0,41%) e não há ocorrências das notas 0, 1, 2 e 10.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
## [1] 119
Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 6,855 e 6,800, respectivamente. Ainda, nota-se a presença de 119 outliers.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2782 0.3200 1.1000
## [1] 186
## [1] 97
Observa-se uma distribuição não normal (positively skewed) dos dados, com formato de cauda longa, estando os dados concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição normal, verificada no segundo histograma. Ainda, nota-se a presença de 186 outliers sem transformação logarítmica e 97 com transformação logarítmica.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
## [1] 270
Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 0,3342 e 0,3200, respectivamente. Ainda, nota-se a presença de 270 outliers.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
## [1] 7
## [1] 0
Observa-se uma distribuição não normal (positively skewed) dos dados, com formato de cauda longa, estando os dados concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição normal, verificada no segundo histograma. Ainda, nota-se a presença de apenas 7 outliers sem transformação logarítmica e nenhum com transformação logarítmica.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
## [1] 208
## [1] 237
Observa-se uma distribuição não normal (positively skewed) dos dados, com formato de cauda longa, estando os dados concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição normal, verificada no segundo histograma. Ainda, nota-se a presença de 208 outliers sem transformação logarítmica e 237 com transformação logarítmica.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
## [1] 50
Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 35,31 e 34,00, respectivamente. Ainda, nota-se a presença de 50 outliers.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
## [1] 19
Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 138,4 e 134,0, respectivamente. Ainda, nota-se a presença de 19 outliers.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
## [1] 5
Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 0,994 e 0,9937, respectivamente. Ainda, nota-se a presença de 5 outliers.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.188 3.280 3.820
## [1] 75
Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 3,188 e 3,180, respectivamente. Ainda, nota-se a presença de 75 outliers.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4700 0.4898 0.5500 1.0800
## [1] 124
## [1] 51
Observa-se uma distribuição não normal (positively skewed) dos dados, estando os dados mais concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição mais normal, verificada no segundo histograma. Ainda, nota-se a presença de 124 outliers sem transformação logarítmica e 51 com transformação logarítmica.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
## [1] 0
Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 10,52 e 10,40, respectivamente. Ainda, não nota-se a presença de outliers.
| quality | mean_fixed.acidity | mean_volatile.acidity | mean_citric.acid | mean_residual.sugar | mean_chlorides | mean_free.sulfur.dioxide | mean_total.sulfur.dioxide | mean_density | mean_pH | mean_sulphates | mean_alcohol |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 3 | 7.600000 | 0.3332500 | 0.3360000 | 6.392500 | 0.0543000 | 53.32500 | 170.6000 | 0.9948840 | 3.187500 | 0.4745000 | 10.34500 |
| 4 | 7.129448 | 0.3812270 | 0.3042331 | 4.628221 | 0.0500982 | 23.35890 | 125.2791 | 0.9942767 | 3.182883 | 0.4761350 | 10.15245 |
| 5 | 6.933974 | 0.3020110 | 0.3376527 | 7.334969 | 0.0515463 | 36.43205 | 150.9046 | 0.9952626 | 3.168833 | 0.4822032 | 9.80884 |
| 6 | 6.837671 | 0.2605641 | 0.3380255 | 6.441606 | 0.0452175 | 35.65059 | 137.0473 | 0.9939613 | 3.188599 | 0.4911056 | 10.57537 |
| 7 | 6.734716 | 0.2627670 | 0.3256250 | 5.186477 | 0.0381909 | 34.12557 | 125.1148 | 0.9924524 | 3.213898 | 0.5031023 | 11.36794 |
| 8 | 6.657143 | 0.2774000 | 0.3265143 | 5.671429 | 0.0383143 | 36.72000 | 126.1657 | 0.9922359 | 3.218686 | 0.4862286 | 11.63600 |
| 9 | 7.420000 | 0.2980000 | 0.3860000 | 4.120000 | 0.0274000 | 33.40000 | 116.0000 | 0.9914600 | 3.308000 | 0.4660000 | 12.18000 |
Há 4898 amostras de vinho no dataset com 12 atributos. O número de amostras de vinho são armazenados na variável (integer) ‘X’. Os atributos (numerical), variáveis inputs, são: fixed.acidity (acidez fixa); volatile.acidity (acidez volátil); citric.acid (acidez cítrica); residual.sugar (açúcar residual); chlorides (cloretos); free.sulfur.dioxide (dióxido sulfúrico em forma livre); total.sulfur.dioxide (total de dióxido sulfúrico em forma livre e ácido sulfuroso); density (densidade); pH; sulphates (sulfatos); alcohol (álcool). A variável de output, baseada em dados sensoriais, é a variável (integer) ‘quality’, a qual representa a nota de 0 a 10 para o respectivo vinho analisado.
Outras observações:
- Maioria dos vinhos possuem notas 6 (44,87%) e 5 (29,75%).
- Não houveram ocorrências de notas 0, 1, 2 e 10.
- Poucos vinhos obtiveram notas 3, 4, 8 e 9.
- Apenas 5 vinhos (0,18%) obtiveram nota 9.
- Alguns atributos possuem distribuição não normal, por isso foram transformados em escala logarítimica a fim de normalizá-los.
O principal atributo é quality (qualidade). Será analisado quais atributos podem estar relacionados à qualidade do vinho. Busca-se descobrir quais são diretamente relacionados a qualidade, e então outros que podem relacionar-se com os diretamente relacionados com a qualidade e assim idealizar as propriedades químicas para obter um vinho de boa qualidade.
Procuro realizar uma análise completa sem pré definições. Logo, acredito que todo o restante dos atributos podem auxiliar na investigação.
Sim, a variável quality.factor, a qual representa uma variável fator originada a partir da variável quality. Também, foi criado um dataframe com as variáveis que não possuem distribuição normal, transformadas em escala logarítimica, para ser utilizado no decorrer do projeto, principalmente para quando o modelo preditivo for construído.
Sim, foi encontrado algumas distribuições com formato de cauda longa (positively skewed), sendo os dados concentrados a esquerda do eixo das abcisass. Com isso, transformações logarítmicas foram realizadas a fim de obter uma ditribuição normal.
##
## Pearson's product-moment correlation
##
## data: fixed.acidity and quality
## t = -8.005, df = 4896, p-value = 1.48e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.14121974 -0.08592991
## sample estimates:
## cor
## -0.1136628
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 4.2 11.8 7.3 7.6 1.95
## 2 4 163 4.8 10.2 6.9 7.13 1.20
## 3 5 1457 4.5 10.3 6.8 6.93 1
## 4 6 2198 3.8 14.2 6.8 6.84 1
## 5 7 880 4.2 9.2 6.7 6.73 1
## 6 8 175 3.9 8.2 6.8 6.66 1.10
## 7 9 5 6.6 9.1 7.1 7.42 0.5
Analisando o relacionamento da variável fixed.acidity com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0.11.Também, foi analisado a distribuição da variável fixed.acidity com quality.factor através do gráfico de boxplot. Percebe-se uma baixa variabilidade dos dados e pouca diferença entre as medianas, médias e distribuições da variável fixed.acidity entre cada valor de quality.factor. Por fim, através do scatter plot nota-se a concentração dos dados nas notas 6 e 5, e a baixa correlação negativa entre as variáveis.
##
## Pearson's product-moment correlation
##
## data: volatile.acidity and quality
## t = -13.891, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2215214 -0.1676307
## sample estimates:
## cor
## -0.194723
##
## Pearson's product-moment correlation
##
## data: log10(volatile.acidity) and quality
## t = -14.087, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2241308 -0.1702981
## sample estimates:
## cor
## -0.1973632
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 0.17 0.64 0.26 0.333 0.175
## 2 4 163 0.11 1.1 0.32 0.381 0.190
## 3 5 1457 0.1 0.905 0.28 0.302 0.1
## 4 6 2198 0.08 0.965 0.25 0.261 0.100
## 5 7 880 0.08 0.76 0.25 0.263 0.13
## 6 8 175 0.12 0.66 0.26 0.277 0.13
## 7 9 5 0.24 0.36 0.27 0.298 0.100
Analisando o relacionamento da variável volatile.acidity com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0,195 para os dados não transformados e -0,197 para os dados transformados. Também, foi analisado a distribuição da variável volatile.acidity com quality.factor através do gráfico boxplot. Percebe-se uma média variabilidade dos dados e uma baixa diferença entre as medianas e médias da variável volatile.acidity entre cada valor de quality.factor. Por fim, através do scatter plot nota-se a fraca correlação negativa entre as variáveis. Não houve expressiva diferença entre a correlação do atributo não transformado com o transformado em escala logarítmica.
##
## Pearson's product-moment correlation
##
## data: citric.acid and quality
## t = -0.6444, df = 4896, p-value = 0.5193
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.03720595 0.01880221
## sample estimates:
## cor
## -0.009209091
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 0.21 0.47 0.345 0.336 0.128
## 2 4 163 0 0.88 0.290 0.304 0.21
## 3 5 1457 0 1 0.32 0.338 0.17
## 4 6 2198 0 1.66 0.32 0.338 0.110
## 5 7 880 0.01 0.74 0.31 0.326 0.0800
## 6 8 175 0.04 0.74 0.32 0.327 0.0800
## 7 9 5 0.290 0.49 0.36 0.386 0.110
Analisando o relacionamento da variável citric.acidity com a variável quality, não nota-se correlação, com valor igual a aproximadamente -0.009. Por fim, foi analisado a distribuição da variável citric.acid com quality.factor através do gráfico de boxplot. Percebe-se uma baixa variabilidade dos dados e pouca diferença entre as medianas, médias e distribuições da variável citric.acidity entre cada valor de quality.factor. Por fim, através do scatter plot não nota-se correlação entre as variáveis.
##
## Pearson's product-moment correlation
##
## data: residual.sugar and quality
## t = -6.8603, df = 4896, p-value = 7.724e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.12524103 -0.06976101
## sample estimates:
## cor
## -0.09757683
##
## Pearson's product-moment correlation
##
## data: log10(residual.sugar) and quality
## t = -4.5319, df = 4896, p-value = 5.986e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.09247084 -0.03669172
## sample estimates:
## cor
## -0.06463176
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 0.7 16.2 4.6 6.39 9.11
## 2 4 163 0.7 17.6 2.5 4.63 5.8
## 3 5 1457 0.6 23.5 7 7.33 9.7
## 4 6 2198 0.7 65.8 5.3 6.44 8.2
## 5 7 880 0.9 19.2 3.65 5.19 5.62
## 6 8 175 0.8 14.8 4.3 5.67 6.1
## 7 9 5 1.6 10.6 2.2 4.12 2.2
Analisando o relacionamento da variável residual.sugar com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0,10 para os dados não transformados e -0,06 para os dados transformados. Por fim, foi analisado a distribuição da variável residual.sugar com quality.factor através do gráfico boxplot. Percebe-se uma alta variabilidade dos dados, alto IQR e uma alta diferença entre as medianas e médias da variável residual.sugar entre cada valor de quality.factor. Por fim, através do scatter plot nota-se a fraca correlação negativa entre as variáveis. Houve diferença entre a correlação do atributo não transformado com o transformado em escala logarítmica, porém de forma a diminuir ainda mais a correlação de Pearson.
##
## Pearson's product-moment correlation
##
## data: chlorides and quality
## t = -15.024, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2365501 -0.1830039
## sample estimates:
## cor
## -0.2099344
##
## Pearson's product-moment correlation
##
## data: log10(chlorides) and quality
## t = -19.845, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2985814 -0.2467357
## sample estimates:
## cor
## -0.2728567
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 0.022 0.244 0.041 0.0543 0.0178
## 2 4 163 0.013 0.290 0.046 0.0501 0.016
## 3 5 1457 0.009 0.346 0.047 0.0515 0.0130
## 4 6 2198 0.015 0.255 0.043 0.0452 0.013
## 5 7 880 0.012 0.135 0.037 0.0382 0.0130
## 6 8 175 0.014 0.121 0.036 0.0383 0.0140
## 7 9 5 0.018 0.035 0.031 0.0274 0.011
Analisando o relacionamento da variável chlorides com a variável quality, nota-se uma moderada correlação negativa, com valor igual a aproximadamente -0,21 para os dados não transformados e mais forte para os dados transformados, -0,27. Também, foi analisado a distribuição da variável chlorides com quality.factor através do gráfico boxplot. Percebe-se uma média variabilidade dos dados. Por fim, através do scatter plot nota-se a fraca correlação negativa entre as variáveis. Houve diferença entre a correlação do atributo não transformado com o transformado em escala logarítmica, de forma a aumantar a forla da correlação de Pearson. Nota-se no gráfico, a tendência negativa de quanto menor o percentual de sal no vinho, maior a sua nota de qualidade. Percebe-se também que os 5 vinhos com nota 9 possuem menos sal que grande parte do restante da amostragem.
##
## Pearson's product-moment correlation
##
## data: free.sulfur.dioxide and quality
## t = 0.57085, df = 4896, p-value = 0.5681
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.01985292 0.03615626
## sample estimates:
## cor
## 0.008158067
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 5 289 33.5 53.3 34.2
## 2 4 163 3 138. 18 23.4 21.5
## 3 5 1457 2 131 35 36.4 28
## 4 6 2198 3 112 34 35.7 22
## 5 7 880 5 108 33 34.1 16
## 6 8 175 6 105 35 36.7 16.5
## 7 9 5 24 57 28 33.4 4
Analisando o relacionamento da variável free.sulfur.dioxide com a variável quality, não nota-se correlação, com valor igual a aproximadamente 0.008. Também, foi analisado a distribuição da variável free.sulfur.dioxide com quality.factor através do gráfico de boxplot. Percebe-se uma baixa variabilidade dos dados e pouca diferença entre as medianas, médias e distribuições da variável free.sulfur.dioxide entre cada valor de quality.factor. Por fim, através do scatter plot não é verificado correlação entre as variáveis.
##
## Pearson's product-moment correlation
##
## data: total.sulfur.dioxide and quality
## t = -12.418, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2017563 -0.1474524
## sample estimates:
## cor
## -0.1747372
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 19 440 160. 171. 104.
## 2 4 163 10 272 117 125. 86.5
## 3 5 1457 9 344 151 151. 61
## 4 6 2198 18 294 132 137. 56.8
## 5 7 880 34 229 122 125. 43.2
## 6 8 175 59 212. 122 126. 47.5
## 7 9 5 85 139 119 116 11
Analisando o relacionamento da variável total.sulfur.dioxide com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0,17. Por fim, foi analisado a distribuição da variável total.sulfur.dioxide com quality.factor através do gráfico de boxplot. Percebe-se uma média variabilidade dos dados e diferenças entre as medianas, médias e distribuições da variável total.sulfur.dioxide para cada valor de quality.factor. Por fim, através do scatter plot nota-se a fraca correlação positiva entre as variáveis.
##
## Pearson's product-moment correlation
##
## data: density and quality
## t = -22.581, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3322718 -0.2815385
## sample estimates:
## cor
## -0.3071233
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 0.991 1.00 0.994 0.995 0.00440
## 2 4 163 0.989 1.00 0.994 0.994 0.0032
## 3 5 1457 0.987 1.00 0.995 0.995 0.0039
## 4 6 2198 0.988 1.04 0.994 0.994 0.00417
## 5 7 880 0.987 1.00 0.992 0.992 0.00312
## 6 8 175 0.987 1.00 0.992 0.992 0.00318
## 7 9 5 0.990 0.997 0.990 0.991 0.00075
Analisando o relacionamento da variável density com a variável quality, nota-se uma moderada correlação negativa, com valor igual a aproximadamente -0,307. Também, foi analisado a distribuição da variável density com quality.factor através do gráfico de boxplot. Percebe-se uma pequena variabilidade dos dados, principalmente em relação a 4 vinhos com nota 9, os quais possuem menor densidade do que grande parte da amostragem. Por fim, através do scatter plot nota-se a moderada correlação positiva entre as variáveis, sendo que em notas superiores a 5 verifica-se a tendência negativa com maior força, em que quanto menor a densidade, maior a nota de qualidade do vinho.
##
## Pearson's product-moment correlation
##
## data: pH and quality
## t = 6.9917, df = 4896, p-value = 3.081e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.07162022 0.12707983
## sample estimates:
## cor
## 0.09942725
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 2.87 3.55 3.22 3.19 0.29
## 2 4 163 2.83 3.72 3.16 3.18 0.210
## 3 5 1457 2.79 3.79 3.16 3.17 0.16
## 4 6 2198 2.72 3.81 3.18 3.19 0.200
## 5 7 880 2.84 3.82 3.2 3.21 0.220
## 6 8 175 2.94 3.59 3.23 3.22 0.210
## 7 9 5 3.2 3.41 3.28 3.31 0.09
Analisando o relacionamento da variável pH com a variável quality, não nota-se correlação, com valor igual a aproximadamente 0.099. Também, foi analisado a distribuição da variável pH com quality.factor através do gráfico de boxplot. Percebe-se uma média variabilidade dos dados e baixa diferencça entre medianas e médias entre cada valor de quality.factor. Por fim, através do scatter plot não observa-se correlação entre as variáveis.
##
## Pearson's product-moment correlation
##
## data: sulphates and quality
## t = 3.7613, df = 4896, p-value = 0.000171
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.02571007 0.08156172
## sample estimates:
## cor
## 0.05367788
##
## Pearson's product-moment correlation
##
## data: log10(sulphates) and quality
## t = 2.6444, df = 4896, p-value = 0.008209
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.009770046 0.065703130
## sample estimates:
## cor
## 0.03776617
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 0.28 0.74 0.44 0.475 0.162
## 2 4 163 0.25 0.87 0.47 0.476 0.16
## 3 5 1457 0.27 0.88 0.47 0.482 0.11
## 4 6 2198 0.23 1.06 0.48 0.491 0.14
## 5 7 880 0.22 1.08 0.48 0.503 0.17
## 6 8 175 0.25 0.95 0.46 0.486 0.205
## 7 9 5 0.36 0.61 0.46 0.466 0.06
Analisando o relacionamento da variável sulphates com a variável quality, não nota-se correlação, com valor igual a aproximadamente 0,054 para os dados não transformados e 0,038 para os dados transformados. Também, foi analisado a distribuição da variável sulphates com quality.factor através do gráfico boxplot. Percebe-se uma média variabilidade dos dados e pouca diferença das médias e medianas entre as diferentes notas. Por fim, através do scatter plot não observa-se correlação entre as variáveis tanto com os dados não transformados quanto com os dados transformados.
##
## Pearson's product-moment correlation
##
## data: alcohol and quality
## t = 33.858, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4126015 0.4579941
## sample estimates:
## cor
## 0.4355747
## # A tibble: 7 x 7
## quality.factor n Min Max Mediana Media IQRange
## <ord> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 20 8 12.6 10.4 10.3 1.45
## 2 4 163 8.4 13.5 10.1 10.2 1.35
## 3 5 1457 8 13.6 9.5 9.81 1.1
## 4 6 2198 8.5 14 10.5 10.6 1.8
## 5 7 880 8.6 14.2 11.4 11.4 1.7
## 6 8 175 8.5 14 12 11.6 1.60
## 7 9 5 10.4 12.9 12.5 12.2 0.300
Analisando o relacionamento da variável alcohol com a variável quality, nota-se a mais forte correlação entre os atributos e a variável quality, com valor positivo de 0.436. Também, foi analisado a distribuição da variável alcohol com quality.factor através do gráfico de boxplot. Percebe-se uma média variabilidade dos dados e diferenças das médias e medianas entre as notas. Verifica-se a tendência positiva da correlação entre alcohol e quality, a partir da nota 6. Por fim, através do scatter plot observa-se a relativamente forte correlação positiva entre as variáveis. Pode-se observar que 4 dos 5 vinhos com nota 9 obtiveram índice maior que a maioria dos dados da amostragem, sendo que 1 (outlier) apresentou o valor da mediana da amostragem, 10,4%.
## [1] "fixed.acidity" "volatile.acidity" "citric.acid"
## [4] "residual.sugar" "chlorides" "free.sulfur.dioxide"
## [7] "total.sulfur.dioxide" "density" "pH"
## [10] "sulphates" "alcohol" "quality"
## [13] "quality.factor"
## [1] "fixed.acidity" "volatile.acidity" "citric.acid"
## [4] "residual.sugar" "chlorides" "free.sulfur.dioxide"
## [7] "total.sulfur.dioxide" "density" "pH"
## [10] "sulphates" "alcohol" "quality"
Analisando ambos dataframes, correlações com maior força (acima de módulo de 0,4) em ordem decrescente: 1.density e residual.sugar: 0,816; 2.density e alcohol: -0,8; 3.free.sulfur.dioxide e total.sulfur.dioxide: 0,615; 4.total.sulfur.dioxide e density: 0,506; 5.log10(chlorides) e alcohol: -0.489; 6.alcohol e quality: 0,464; 7.residual.sugar e alcohol: -0,435; 8.total.sulfur.dioxide e alcohol: -0,424.
##
## Pearson's product-moment correlation
##
## data: residual.sugar and density
## t = 107.87, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8304732 0.8470698
## sample estimates:
## cor
## 0.8389665
Discussão do gráfico na questões de Análise Bivariada a seguir.
##
## Pearson's product-moment correlation
##
## data: density and alcohol
## t = -87.255, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7908646 -0.7689315
## sample estimates:
## cor
## -0.7801376
Discussão do gráfico na questões de Análise Bivariada a seguir.
##
## Pearson's product-moment correlation
##
## data: free.sulfur.dioxide and total.sulfur.dioxide
## t = 54.645, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.5977994 0.6326026
## sample estimates:
## cor
## 0.615501
Discussão do gráfico na questões de Análise Bivariada a seguir.
Vericado que as variáveis alcohol e density são as que possuem correlação de “Pearson” mais fortes com a variável quality. Álcool é uma correlação positiva, há mais incidência de notas altas para percentuais maiores de álcool. Já densidade é uma correlação negativa, ou seja, quanto menor densidade, menos notas altas são identificadas. Também é importante ressaltar que densidade com álcool possui uma forte correlação negativa, ou seja, verifica-se que vinhos com menores densidades possuem maiores percentuais de álcool.
Relacionamentos entre atributos não relacionados com qualidade:
- density e residual.sugar: 0,816;
- density e alcohol: -0,8;
- free.sulfur.dioxide e total.sulfur.dioxide: 0,615;
- total.sulfur.dioxide e density: 0,506;
- log10(chlorides) e alcohol: -0.489;
- residual.sugar e alcohol: -0,435;
- total.sulfur.dioxide e alcohol: -0,424.
Açúcar residual com a densidade do vinho foi o relacionamento mais forte, seguido pelo relacionamento inversamente proporcional da densidade com o percentual alcoólico. Além disso, nota-se relacionamento entre dióxido de enxofre livre e dióxido de enxofre total, o que era esperado, visto que a quantidade de dióxido de enxofre livre faz parte da quantidade total de dióxido de enxofre no vinho. Também, nota-se relacionamento proporcional da quantidade total de dióxido de enxofre no vinho com densidade e inversamente proporcional com o percentual de álcool. Por fim, nota-se que o açúcar residual do vinho é inversamente proporcional com o percentual alcoólico, o que era esperado, visto que álcool é formado a partir de moléculas de açúcar.
Segmentações da nota de qualidade Qualidade: (3,4); (5,6); (7,8,9) Segmentação de álcool em 5 níveis e densidade em 4.
A seguir, é apresentado diversos gráficos com o intuito de buscar relacionamentos multivariados. A discussão sobre os relacionamentos mais claros identificados estão descritas ao final da seção.
##
## Pearson's product-moment correlation
##
## data: residual.sugar and alcohol/density
## t = -36.438, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4836319 -0.4395611
## sample estimates:
## cor
## -0.4618815
##
## Pearson's product-moment correlation
##
## data: alcohol/density and quality
## t = 33.8, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4119777 0.4574000
## sample estimates:
## cor
## 0.4349655
##
## Pearson's product-moment correlation
##
## data: total.sulfur.dioxide and alcohol/density
## t = -35.555, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4749829 -0.4304574
## sample estimates:
## cor
## -0.4530026
##
## Pearson's product-moment correlation
##
## data: alcohol/density and quality
## t = 33.8, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4119777 0.4574000
## sample estimates:
## cor
## 0.4349655
Menores níveis de açúcar residual e de ácido sulfúrico total relacionam-se com maiores índices da relação alcohol/density, a qual quanto maior, maior a concentração de notas altas.
Notas altas de qualidade concentram-se em menores níveis de cloro, os quais relacionam-se de forma diretamente proporcional com o percentual alcoólico.
##
## Calls:
## m1: lm(formula = quality ~ alcohol, data = df_normalize)
## m2: lm(formula = quality ~ alcohol + density, data = df_normalize)
## m3: lm(formula = quality ~ alcohol + density + residual.sugar, data = df_normalize)
## m4: lm(formula = quality ~ alcohol + density + residual.sugar + chlorides,
## data = df_normalize)
## m5: lm(formula = quality ~ alcohol + density + residual.sugar + chlorides +
## total.sulfur.dioxide, data = df_normalize)
##
## =========================================================================================
## m1 m2 m3 m4 m5
## -----------------------------------------------------------------------------------------
## (Intercept) 5.878*** 5.878*** 5.878*** 5.878*** 5.878***
## (0.011) (0.011) (0.011) (0.011) (0.011)
## alcohol 0.386*** 0.443*** 0.350*** 0.328*** 0.329***
## (0.011) (0.018) (0.021) (0.021) (0.021)
## density 0.074*** -0.140*** -0.129*** -0.131***
## (0.018) (0.029) (0.029) (0.029)
## residual.sugar 0.186*** 0.178*** 0.177***
## (0.020) (0.020) (0.020)
## chlorides -0.052*** -0.053***
## (0.013) (0.013)
## total.sulfur.dioxide 0.004
## (0.013)
## -----------------------------------------------------------------------------------------
## R-squared 0.190 0.192 0.207 0.210 0.210
## N 4898 4898 4898 4898 4898
## =========================================================================================
## Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
##
## Call:
## lm(formula = quality ~ alcohol + density + residual.sugar, data = df_normalize)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.5983 -0.5428 0.0024 0.4799 3.1158
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.87791 0.01127 521.444 < 2e-16 ***
## alcohol 0.34996 0.02054 17.035 < 2e-16 ***
## density -0.13978 0.02887 -4.842 1.33e-06 ***
## residual.sugar 0.18617 0.01965 9.477 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7889 on 4894 degrees of freedom
## Multiple R-squared: 0.207, Adjusted R-squared: 0.2065
## F-statistic: 425.9 on 3 and 4894 DF, p-value: < 2.2e-16
Realizar um modelo linear pode não ser o ideal, visto que para prever uma variável categórica é preferível utilizar um modelo de classificação e não de regressão. Entretanto, inicialmente foi tentado obter uma equação linear que pudesse prever a variável quality como um problema de regressão. Conforme métricas analisadas, o modelo não demonstrou bom desempenho, obtendo um índice de R-quadrado de apenas 21%.
| 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
|---|---|---|---|---|---|---|---|
| 3 | 0 | 0 | 2 | 3 | 0 | 0 | 0 |
| 4 | 0 | 7 | 17 | 17 | 0 | 0 | 0 |
| 5 | 0 | 4 | 238 | 116 | 6 | 0 | 0 |
| 6 | 0 | 2 | 77 | 422 | 47 | 2 | 0 |
| 7 | 0 | 1 | 6 | 84 | 124 | 5 | 0 |
| 8 | 0 | 0 | 0 | 15 | 10 | 19 | 0 |
| 9 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
## [1] 0.6612245
## y_pred
## y_true 3 4 5 6 7 8 9
## 3 0 0 2 3 0 0 0
## 4 0 7 17 17 0 0 0
## 5 0 4 238 116 6 0 0
## 6 0 2 77 422 47 2 0
## 7 0 1 6 84 124 5 0
## 8 0 0 0 15 10 19 0
## 9 0 0 0 0 1 0 0
Na primeira modelagem com SVM, os resultados não estavam satisfatórios, pois os valores previstos pelo modelo estavam fortemente enviezados para as notas 5 e 6. Após alterações nos hiperparâmetros, foi selecionado o tipo de kernel ‘radial’ (RBF), custo (fator C) igual a 10 e gama igual a 0,5. Assim, obteve-se resultados satisfatórios, com melhor generalização do modelo, conforme apresentado na Matriz de Confusão acima. A acurácia do modelo obteve um valor de 66,12%, o que não é ruim, considerando que a probabilidade de acertar um número de 0 a 10 é 10%, o modelo é 6 vezes mais acurado. Entretanto, nota-se uma baixa sensibilidade para identificar as notas ruins 3 e 4, onde o modelo está tendenciando a prever notas 5 e 6. Nas outras notas, o modelo demonstra melhores resultados. Foi desenvolvido outro modelo com a finalidade de classificar a qualidade do vinho em “RUIM”, “MEDIO”, “BOM”. Foi considerado vinhos ruins aqueles com notas abaixo de 5, médio com nota 5 e 6, e bons vinhos para aqueles com notas acima de 6.
| RUIM | MEDIO | ALTO | |
|---|---|---|---|
| RUIM | 8 | 36 | 2 |
| MEDIO | 5 | 843 | 66 |
| ALTO | 1 | 108 | 156 |
## [1] 0.8220408
O modelo para prever a qualidade do vinho entre ruim, médio e bom obteve uma maior acurácia que o modelo anterior, obtendo um valor de 82,20%. Em relação a acurácia para identificar notas altas, o modelo não é tão preciso quanto a identificar notas médias, porém obteve uma acurácia satisfatória de 58,87% (156/265), sendo que apenas um vinho com nota alta foi classificado como nota ruim. Notas médias obtiveram uma excelente acurácia, com valor igual a 92,23% (843/914). Entretanto, nota-se novamente a pouca sensibilidade de o modelo identificar vinhos ruins, obtendo uma acurácia de 17,39% (8/46).
A seguir, é realizado o método PCA (Principal Component Analysis) e utilizado o modelo, após a transformação dos dados em Principal Components.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6
## Standard deviation 1.8206 1.2658 1.1040 1.02259 0.98262 0.91430
## Proportion of Variance 0.3013 0.1457 0.1108 0.09506 0.08778 0.07599
## Cumulative Proportion 0.3013 0.4470 0.5578 0.65288 0.74066 0.81665
## PC7 PC8 PC9 PC10 PC11
## Standard deviation 0.84720 0.76023 0.6284 0.5358 0.19791
## Proportion of Variance 0.06525 0.05254 0.0359 0.0261 0.00356
## Cumulative Proportion 0.88190 0.93444 0.9703 0.9964 1.00000
## [1] 3.31475139 1.60235738 1.21885988 1.04569454 0.96554452 0.83594241
## [7] 0.71774520 0.57794322 0.39488686 0.28710646 0.03916816
## [1] 0.301341035 0.145668853 0.110805443 0.095063140 0.087776775
## [6] 0.075994764 0.065249563 0.052540293 0.035898805 0.026100587
## [11] 0.003560742
O resultado do modelo PCA não foi satisfatório para esse dataset, visto que para compreender mais de 90% da variância dos atributos, foram necessários 8 dos 11 componentes principais.
| RUIM | MEDIO | ALTO | |
|---|---|---|---|
| RUIM | 10 | 34 | 2 |
| MEDIO | 19 | 784 | 111 |
| ALTO | 1 | 110 | 154 |
## [1] 0.7738776
Aplicando o modelo SVM na amostra com a dimensionalidade do dataset reduzida, a acurácia reduziu um pouco, obtendo um valor de 77,39%.
##
## Calls:
## d1: lm(formula = density ~ residual.sugar, data = df_normalize)
## d2: lm(formula = density ~ residual.sugar + alcohol, data = df_normalize)
## d3: lm(formula = density ~ residual.sugar + alcohol + quality, data = df_normalize)
## d4: lm(formula = density ~ residual.sugar + alcohol + quality + total.sulfur.dioxide,
## data = df_normalize)
## d5: lm(formula = density ~ residual.sugar + alcohol + quality + total.sulfur.dioxide +
## chlorides, data = df_normalize)
##
## =========================================================================================
## d1 d2 d3 d4 d5
## -----------------------------------------------------------------------------------------
## (Intercept) -0.000 -0.000 0.200*** 0.195*** 0.183***
## (0.009) (0.006) (0.042) (0.041) (0.041)
## residual.sugar 0.756*** 0.532*** 0.535*** 0.515*** 0.518***
## (0.009) (0.006) (0.006) (0.006) (0.006)
## alcohol -0.571*** -0.556*** -0.533*** -0.519***
## (0.006) (0.007) (0.007) (0.008)
## quality -0.034*** -0.033*** -0.031***
## (0.007) (0.007) (0.007)
## total.sulfur.dioxide 0.070*** 0.066***
## (0.006) (0.006)
## chlorides 0.031***
## (0.006)
## -----------------------------------------------------------------------------------------
## R-squared 0.572 0.848 0.848 0.852 0.852
## N 4898 4898 4898 4898 4898
## =========================================================================================
## Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
##
## Call:
## lm(formula = density ~ residual.sugar + alcohol + quality + total.sulfur.dioxide,
## data = df_normalize)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7756 -0.2302 -0.0275 0.1992 13.9992
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.194815 0.041295 4.718 2.45e-06 ***
## residual.sugar 0.515417 0.006316 81.609 < 2e-16 ***
## alcohol -0.533281 0.007024 -75.928 < 2e-16 ***
## quality -0.033144 0.006963 -4.760 1.99e-06 ***
## total.sulfur.dioxide 0.069670 0.006446 10.809 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3852 on 4893 degrees of freedom
## Multiple R-squared: 0.8518, Adjusted R-squared: 0.8517
## F-statistic: 7029 on 4 and 4893 DF, p-value: < 2.2e-16
O modelo linear acima, desenvolvido para prever a densidade do vinho, a partir do açúcar residual, álcool, qualidade e dióxido de enxofre, obteve um bom desempenho, descrevendo 85,17% da variância do atributo densidade.
##
## Calls:
## a1: lm(formula = alcohol ~ density, data = df_normalize)
## a2: lm(formula = alcohol ~ density + residual.sugar, data = df_normalize)
## a3: lm(formula = alcohol ~ density + residual.sugar + chlorides,
## data = df_normalize)
## a4: lm(formula = alcohol ~ density + residual.sugar + chlorides +
## quality, data = df_normalize)
## a5: lm(formula = alcohol ~ density + residual.sugar + chlorides +
## quality + total.sulfur.dioxide, data = df_normalize)
##
## =========================================================================================
## a1 a2 a3 a4 a5
## -----------------------------------------------------------------------------------------
## (Intercept) -0.000 -0.000 -0.000 -0.836*** -0.834***
## (0.009) (0.008) (0.008) (0.055) (0.054)
## density -0.780*** -1.127*** -1.024*** -0.958*** -0.942***
## (0.009) (0.012) (0.013) (0.013) (0.014)
## residual.sugar 0.459*** 0.404*** 0.360*** 0.363***
## (0.012) (0.012) (0.012) (0.012)
## chlorides -0.156*** -0.142*** -0.137***
## (0.009) (0.008) (0.008)
## quality 0.142*** 0.142***
## (0.009) (0.009)
## total.sulfur.dioxide -0.039***
## (0.009)
## -----------------------------------------------------------------------------------------
## R-squared 0.609 0.699 0.718 0.731 0.732
## N 4898 4898 4898 4898 4898
## =========================================================================================
## Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
##
## Call:
## lm(formula = alcohol ~ density + residual.sugar + chlorides +
## quality + total.sulfur.dioxide, data = df_normalize)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.6265 -0.3468 -0.0296 0.3062 14.2780
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.833991 0.054406 -15.329 < 2e-16 ***
## density -0.941688 0.013761 -68.433 < 2e-16 ***
## residual.sugar 0.363483 0.012041 30.187 < 2e-16 ***
## chlorides -0.136981 0.008435 -16.240 < 2e-16 ***
## quality 0.141886 0.009170 15.473 < 2e-16 ***
## total.sulfur.dioxide -0.039014 0.008797 -4.435 9.41e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5175 on 4892 degrees of freedom
## Multiple R-squared: 0.7325, Adjusted R-squared: 0.7322
## F-statistic: 2679 on 5 and 4892 DF, p-value: < 2.2e-16
O modelo linear para prever o percentual alcoólico do vinho, a partir da densidade, do açúcar residual, cloro, qualidade e dióxido de enxofre obteve um desempenho razoável, descrevendo 73,22% da variância da variável álcool.
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
## [1] 0.9258881
É importante ressaltar que os valores da variável qualidade estão muito concentrados entre 5 e 7, contabilizando aproximadamente 93% de todas as amostras. Esse fator dificulta a sensibilidade dos modelos preditivos e a força das correlações dos atributos com a qualidade do vinho.
Apesar de não haver uma correlação forte entre os atributos e a qualidade do vinho, foi verificado fortes correlações entre as propriedades químicas do vinho, tal como entre as variáveis açúcar residual, densidade e percentual alcoólico. A partir da análise desses relacionamentos, é possível identificar um certo padrão entre as diferentes notas de qualidade do vinho. O gráfico acima apresenta a forte correlação positiva entre a variável açúcar residual e densidade, demonstrando que quanto mais açúcar sobra após o processo de fermentação do vinho, maior a densidade da bebida e menor o percentual alcoólico. Além disso, segmentando as amostras pelas diferentes notas de qualidade, é verificado que nas observações de notas maiores, ocorre maior proporção das cores branco e verde, demonstrando que menos açúcar residual, menos densidade e maior percentual alcoólico são características de vinhos de maior qualidade.
O gráfico acima representa as correlações entre os atributos açúcar residual, densidade, percentual alcoólico e seus relacionamentos com a qualidade do vinho. Notas medianas e baixas possuem maior incidência em vinhos com propriedades químicas de maior açúcar residual, maior densidade e menor percentual alcoólico, ao passo que notas maiores possuem menos açúcar residual, menos densidade e maior percentual alcoólico, o que é verificado através da diferença de cores (notas de qualidade) nas amostras.
O dataset estudado possui 4898 observações de diferentes vinhos brancos. Para cada observação, foi coletada três avaliações de qualidade (variável sensorial) de diferentes especialistas de vinho. A mediana das notas (entre 0 e 10) de cada vinho foi considerada. Iniciei o estudo avaliando cada variável individualmente, verificando suas distribuições e realizando transformações quando as distribuições não apresentavam normalidade. Após, foi realizado análises bivariadas e multivariadas entre os atributos, identificando assim variações, correlações e padrões entre as segmentações de qualidade, álcool e densidade. Foi identificado interessantes relacionamentos entre os atributos e seus possíveis impactos para a qualidade de um vinho. Por fim, modelos preditivos foram desenvolvidos, três modelos para prever a nota da qualidade de vinho, um para prever a densidade e outro para o percentual alcoólico.
Apesar de não haver fortes relacionamentos lineares entre as propriedades do vinho com a nota de qualidade, foi verificado fortes relacionamentos entre os atributos açúcar residual, densidade e percentual alcoólico. Quando tais relacionamentos são analisados sobre diferentes notas de qualidade, é verificado um padrão de que vinhos com boas notas possuíram uma fermentação mais completa. Ou seja, esses vinhos possuem menos açúcares residuais, os quais pode-se auferir que não foram transformados em álcool durante a fermentação, e que com isso obteve-se um maior percentual alcoólico e uma menor densidade no vinho.
Os modelos lineares para prever o valor dos atributos densidade e percentual alcoólico apresentaram bons resultados, entretanto por serem atributos e sua coleta química poder ser realizada, não possuem tanto valor quanto a predição da variável de interesse qualidade.
Em relação aos modelos preditivos para a variável qualidade, três modelos foram desenvolvidos. A aplicação do algorítmo SVM para um modelo de classificação obteve resultados satisfatórios, obtendo uma acurácia de 66,12%. Segmentando as notas de qualidade entre “ruins”, “médias” e “boas”, o modelo com SVM obteve uma acurácia de 82,20%. Entretanto, ambos modelos demonstraram fraca sensibilidade para identificar vinhos ruins. Estudos mais aprofundados podem ser aplicados para buscar melhores resultados, tal como realizados mais tratamentos no dataset eliminando outliers, aperfeiçoar a coleta de dados buscando outras propriedades do vinho, alterar o modo da coleta da variável sensorial da qualidade, refinar o modelo preditivo desenvolvido e desenvolver novos modelos aplicando outros algoritmos.